Robuste Spracherkennung auf der Basis recheneffizienter auditiver Modelle

نویسنده

Ronald Römer

چکیده

∏ = i i e e (2.1.1) Das bedeutet, dass in einem Multiband-Modell der Gesamtfehler immer kleiner ist als der kleinste Teilbandfehler. Die Teilbandfehler werden durch das SNR in den Teilbändern bestimmt i SNR i e e min = (siehe Anhang B). Formuliert man (2.1.1) mit der Phonemerkennrate e s − = 1 und logarithmiert diesen Ausdruck, erhält man die gewünschte Additivität: ∑ − = − i i s s) 1 (log) 1 (log 10 10 (2.2.2) Der zwischen Artikulationsindex und Hörsituation bestehende Zusammenhang wird auch als Artikulationsmodell bezeichnet: ∑ − = − − = i i A k s k AI) 1 (log 10 (2.2.3) Die Konstante k wird dabei so eingestellt, dass der Artikulationsindex für dB SNR 30 ≥ den Wert eins annimmt. ∫ + + = t m c d q t t a t r 0)) (cos() () (θ τ τ ω ω (3.2.1) Das Argument der Kosinusfunktion wird im Allgemeinen als Phasenfunktion bezeichnet: ∫ + + = t m c d q t t 0) () (θ τ τ ω ω φ (3.2.2) Die Einhüllende des Formanten wird mit a(t) bezeichnet, ω c entspricht der Trägerfrequenz, ω m legt die maximale Frequenzabweichung von der Trägerfrequenz fest und θ ist ein konstanter Phasen-Offset. Für die frequenzmodulierende Funktion q(t) gilt dann: 1 |) (| ≤ t q (3.2.3) Die Momentanfrequenz ω i (t) des Formanten erhält man dann durch Differentiation der Phasenfunktion:) () () (t q t dt t d m c i ω ω ω φ + = = (3.2.4) 3. Das Auditorische System 33 Bezieht man in die Signalbeschreibung alle Formanten ein, so kann das Sprachsignal als Linearkombination von AM-und FM-Komponenten in der folgenden Form dargestellt werden: ∑ = k k k t t a t s) (cos) () (φ (3.2.5) In dieser Darstellung sind die voneinander unabhängig variierenden Komponenten ω i (t) und a(t) die bestimmenden Größen. Über die Verwendung der AM-FM-Komponenten zur Bildung robuster Merkmale für die Automatische Spracherkennung wird bspw. in [Dimitriadis-05b] berichtet. Der Einführung des Teager Energy Operator geht nun auf physikalische Betrachtungen eines linearen Oszillators [Kaiser-90] zurück. Die Momentanenergie setzt sich zu jedem Zeitpunkt aus kinetischer und potentieller Energie zusammen, wobei diese nicht nur proportional zum Quadrat der Amplitude sondern auch proportional zum Quadrat der Momentanfrequenz ist. Diese Betrachtung berücksichtigt also ebenfalls die beiden bestim-menden Komponenten des Modulationsmodells. Der kontinuierliche TEO genügt formal der folgenden Beziehung: 2 2) () (~)] …

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Die Rolle der Phonologie in der multilingualen Sprachtechnologie

Multilinguale Kommunikation fordert die Übertragbarkeit der gängigen Techniken auf eine große Anzahl verschiedener Sprachen und stellt damit hohe Anforderungen an die Sprachtechnologie. Obwohl die Spracherkennung und die Sprachsynthese sich in den letzten Jahren in vielen Bereichen unseres Lebens durchgesetzt haben, sind die Anwendungen häufig von einer bestimmten Domäne abhängig. Auskunftssyst...

متن کامل

Investigations on discriminative training criteria

In this work, a framework for efficient discriminative training and modeling is developed and implemented for both small and large vocabulary continuous speech recognition. Special attention will be directed to the comparison and formalization of varying discriminative training criteria and corresponding optimization methods, discriminative acoustic model evaluation and feature extraction. A fo...

متن کامل

Differenzanalyse und Vereinigung von Modellen auf der Basis ihrer Metamodelle

Die modellgetriebene Softwareentwicklung im Team erfordert entsprechende Technologien zur Analyse von Modelldifferenzen sowie zur Vereinigung verschiedener Modelle. Dieser Artikel stellt die in diesem Kontext von der ikv++ technologies ag entwickelten Konzepte und Lösungen vor. Teamwork und modellgetriebene Softwareentwicklung Modellgetriebene Softwareentwicklungstechnologien vereinfachen und v...

متن کامل

Multimodaler Mensch-Maschine-Dialog

Dieser Beitrag beschäftigt sich mit dem multimodalen Dialog zwischen Mensch und Roboter. Beschrieben werden die Problematiken im Bereich der Spracherkennung und der Dialogverarbeitung, wobei im Besonderen auf das Erkennen und Erlernen neuer Worte in der Spracherkennung und der Integration von Emotionen in die Dialogstrategie eingegangen wird. Ferner beschreiben wir die bei uns zum Einsatz komme...

متن کامل

Effiziente 2D-Navigation für Mobile Service Roboter

Das Ziel dieser Arbeit ist das Design und die Implementierung eines vollständigen Systems zur robusten Navigation mobiler Roboter in häuslichen Umgebungen. Adressierte Probleme sind die Modellierung von Umgebungen, die Planung von Pfaden sowie die Steuerung eines mobilen Roboters. Das resultierende System wurde erfolgreich in der Robocup@Home-Liga eingesetzt. 1 Motivation und Problemstellung Se...

متن کامل

ذخیره در منابع من

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره شماره

صفحات -

تاریخ انتشار 2009

Robuste Spracherkennung auf der Basis recheneffizienter auditiver Modelle

نویسنده

چکیده

منابع مشابه

Die Rolle der Phonologie in der multilingualen Sprachtechnologie

Investigations on discriminative training criteria

Differenzanalyse und Vereinigung von Modellen auf der Basis ihrer Metamodelle

Multimodaler Mensch-Maschine-Dialog

Effiziente 2D-Navigation für Mobile Service Roboter

عنوان ژورنال:

اشتراک گذاری